2019-AAAICAI-Covariate Shift Adaptation on Learning from Positive and Unlabeled Data

https://ojs.aaai.org/index.php/AAAI/article/view/4411

会議はAAAI Conference on AI。

Introduction

Covariance Shiftに対しては、Importance Weightingをサンプルに付与したうえでの、リスク最小化という手法が行われている。これは、密度比 $p_{te}(\mathbf{x}) / p_{tr}(\mathbf{x})$ である(本来は同時分布であるが、Covariance Shiftではこれと等しい)

この問題設定をPU Learningにも適用した。

Background

問題設定

データは $\mathbf{x} \in \mathbb{R}^d$ 、Ground Truthのラベルは $y \in \{-1, +1\}$ である。
識別器は $g : \mathbb{R}^d \to \mathbb{R}$ であり、符号が予測結果で絶対値がConfidenceであった。
訓練目標は、 $R_{te}(g) = \mathbb{E}_{p_{te}(\mathbf{x}, y)} [l(y g(\mathbf{x}))]$ の最小化である。
Samplingの手法はおそらくCase-Control。
存在するのはCovariance Shift。以下のようなものである。

p_{tr}(y | \mathbf{x}) = p_{te}(y | \mathbf{x}) \\ p_{tr}(\mathbf{x}) \neq p_{te}(\mathbf{x})

与えられるデータは、 $D_{tr}^P, D_{tr}^U, D_{te}^U$ である。訓練データのDomainではPUが与えられ、テストデータのDomainから得られたデータはすべてUである。

PU Learningについての部分は省略。この論文ではカーネル法を使った線形識別器を使っているので、使ってるPUのリスクの式は以下のようなものである。nnPUではなく、 📄2015-ICML-[uPU] Convex Formulation for Learning from Positive and Unlabeled Data である。

R(g) = \pi \mathbb{E}_+ [l(g(\mathbf{x})) - l(-g(\mathbf{x}))] + \mathbb{E}_X [l(-g(\mathbf{x}))]

Importance WeightingによるCovariance Shiftの対処

Covariance Shiftに対処するために、密度比 $w(\mathbf{x}) = p_{te}(\mathbf{x}) / p_{tr}(\mathbf{x})$ を用いて、以下のような式の最小化を行う。

\mathbb{E}_{p_{tr}(\mathbf{x}, y)} [l(y g(\mathbf{x})) w(\mathbf{x})]

データの重みによって、出現頻度を補正する重みをつけたうえでの最小化ということになる。

これの証明

期待値を積分の形で書き直せることを利用。 $p_{te}(\mathbf{x}) = p_{tr}(\mathbf{x}) w(\mathbf{x})$ であるので、明らかに以下のようになる。(Covariance Shift特有の $p_{tr}(y|\mathbf{x}) = p_{te}(y|\mathbf{x})$ が成り立つことで、同時分布の関係を周辺分布に転用できる)

\mathbb{E}_{p_{tr}(\mathbf{x}, y)} [l(y g(\mathbf{x})) w(\mathbf{x})] = \mathbb{E}_{p_{te}(\mathbf{x}, y)} [l(y g(\mathbf{x}))]

提案手法

R(g) = \pi \mathbb{E}_+ [w(\mathbf{x}) \{ l(g(\mathbf{x})) - l(-g(\mathbf{x})) \}] + \mathbb{E}_X [w(\mathbf{x})l(-g(\mathbf{x}))]

単純に、密度比を乗じることが数学上正しいので、このように使う。理由としては以下のような式変形。

ここで、 $w(\mathbf{x})$ の推定はサンプルの周辺分布のみを使っており、ラベルの情報は不要である。

この $w(\mathbf{x})$ は、📄2021-Survey-A Comprehensive Survey on Transfer Learning (Part1) Instance Weighting Strategy の2012, Sugiyamaの手法で行っている。

なお、上の式での $\mathbb{E}_X$ での期待値はTrainのDomainから計算しているが、現にTest DomainのUnlabeled $D_T^U$ からサンプルしたデータはあるので、それについての計算をしてもよい。

見る感じだとこっちのほうがよさそうで計算結果が安定するが、どうやら実験してみた形だとTrain Domainから密度比で変換したほうがいいらしい。

理由としては密度比は完ぺきに推定できていないのでバイアスが生じるが、同じ $w(\mathbf{x})$ を乗じていれば同じようなバイアスがかかっている。 $\mathbb{E}_X$ をTest Domainで計算すると片方の項はバイアスがかからなくなり、それで不整合で性能が落ちるのではないか？